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摘要 : 


【 目的】 探讨 开发 汉语 可 计算 语法 的 理论 基础 和 实践 经 验 。[ 方法 ] 以 HPSG 理论 为 句法 框架 ,以 MRS 


为 语义 描写 手段 ， 以 “汉语 普通 话 在 线 语法 "(简称 “ 汉 构 ”) 的 开发 过 程 为 例 , 重点 研究 通过 构建 词 库 和 规则 层级 ， 
对 汉语 特殊 结构 进行 计算 实现 .[ 结果 } 汉 构 "的 开发 证 明 , HPSG 非常 适合 作为 汉语 可 计算 语法 开发 的 理论 框架 。 
【局限 】“ 汉 构 ” 仍 在 继续 开发 中 ,其 覆盖 率 暂 未 接受 大 规模 自然 语 料 的 检测 。[ 结论 】“ 汉 构 " 可 作为 沟通 形式 语 
言 学 和 计算 语言 学 的 桥梁 和 开发 大 规模 资源 型 语法 的 基础 。 
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自然 语言 处 理 


Co 
bo 
了 中 


自然 语言 处 理 (Natural Language Processing, NLP) 
方法 可 分 为 浅 层 和 深层 处 理 。 前 者 指 基于 数据 和 统计 
的 处 理 方法 , 在 20 世纪 90 年 代 成 为 NLP 的 主要 方法 中 
并 在 语音 、 拼 写 和 语法 检查 等 领域 促成 了 一 些 重 要 研 
究 成 果 。 但 是 , 由 于 自然 语言 非常 复杂 , 计算 机 在 执行 
复杂 的 分 析 任务 时 ， 速 度 缓慢 ,空间 不 足 , 无 法 投入 
处 理 效率 要 求 较 高 的 商业 应 用 。 因 此 ,计算 语言 学 家 
意识 到 要 提高 NLP 的 精确 度 ,并 降低 对 计算 系统 的 要 
求 , NLP 必须 回 到 基于 精确 的 语言 学 模型 的 方法 ， 即 


计算 实现 技术 和 商用 等 方面 取得 了 重要 进展 1。 
但 是 , 汉语 NLP 仍 落后 于 英语 、 日 语 、 德 语 等 语 
种 。 尽 管 学 界 已 开发 出 多 种 分 析 汉语 形态 特征 的 分 析 
需 , 但 尚未 有 一 部 系统 地 面向 深层 语言 处 理 的 可 计算 
语法 。 一 方面 , 计算 语言 学 家 对 汉语 的 复杂 结构 和 语 
义 特征 感到 很 琼 手 , 无 法 取得 高 效 的 分 析 结 果 ; 男 一 
方面 , 汉语 语法 学 家 对 计算 语言 学 中 应 用 的 语言 学 机 
架 、 可 计算 语法 开发 平台 和 工具 缺乏 了 解 ， 为 计算 语 
言 学 提供 的 可 借鉴 成 果 有 限 。 陆 俭 明史 认为 中 文 信息 
处 理 “ 眼 下 特别 要 加 强 词汇 句法 语义 研究 ,集中 精力 
解决 好 ' 句 处 理 问 题 ” 并 一 针 见 血 地 指出 “语言 研究 


TH 


基于 约束 条 件 或 规则 的 深层 处 理 的 方法 。 其 中 , 编写 


机 读 的 形式 语法 的 程序 中， 即 可 计算 语法 开发 或 语法 
工程 (Grammar Engineering) 是 关键 。 可 计算 语法 开发 
过 程 复 杂 , 要 建立 词 库 、 短 语 和 句法 规则 、 语 义 表 达 、 

言 息 结构 等 不 同 层次 且 相 互 关联 的 部 分 ,从 20 世纪末 
至 今 , 面向 深层 语言 处 理 的 可 计算 语法 开发 经 历 了 近 
20 年 平稳 快速 发 展期 , 并 在 语言 学 理论 基础 、 跨 语言 、 


已 成 为 信息 工程 科学 发 展 的 瓶 贷 *。 虽 然 NLP 是 一 个 
多 边缘 的 交叉 学 科 , 但 应 以 语言 学 为 主 妆 。 

在 HPSG 理论 框架 内 , 根据 相似 的 编写 流程 ， 
际 上 已 经 开发 出 9 种 语言 的 大 规模 语法 , 并 且 已 投入 
商用 , 男 外 , 还 有 其 他 10 余 种 语法 正在 开发 和 完善 
(http://wiki.delph-in.net/moin/GrammarCatalogue)。 笔者 
和 斯 坦 福 大 学 语言 与 信息 研究 中 心 共同 开发 “汉语 普 


通讯 作者 : 杨 春 雷 , ORCID: 0000-0001-9123-7502, E-mail: yangchunlei@shisu.edu.cn。 
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应 用 认 


通话 在 线 语法 ”(Mandarin Grammar Online, ManGO 或 
“ 汉 构 ”) 中 是 最 早 开发 出 的 汉语 可 计算 语法 之 一 。 本 文 
结合 汉 构 的 开发 实践 , 讨论 开发 汉语 可 计算 语法 的 
理论 基础 、 技 术 思 路 和 主要 开发 环节 (构建 词 库 和 规 
则 系统 )。 


2 汉 构 的 理论 基础 和 开发 过 程 


2.1 汉 构 的 理论 基础 

句法 方面 , 汉 构 基于 中 心 语 驱 动 的 短语 结构 语法 
(Head-driven Phrase Structure Grammar HPSG)™'", 
HPSG 使 用 特征 结构 的 类 别 层 级 (Type Hierarchy) 构 建 
各 层次 的 语 符 , 使 用 约束 条 件 规定 语 符 的 合法 性 。 使 
用 HPSG 能 够 系统 高 效 地 构建 可 计算 语法 ,同时 保持 
理论 语法 精准 的 形式 表达 和 扎实 的 理论 基础 。HPSG 
理论 句法 语义 并 重 , 借鉴 了 许多 语言 学 理论 的 描写 手 
段 和 研究 成 果 , 非常 适合 开发 跨 语言 且 履 盖 广 泛 的 语 
法 体系 ,其 主要 特点 是 非 转换 、 基 于 约束 条 件 、 表 层 


导向 、 高 度 词 汇 化 等 外。 这 些 特点 非常 适合 汉语 可 计 
算 语 法 开发 。 因 此, 近 十 几 年 , 许多 汉语 语法 学 家 一 直 
呼吁 重视 HPSG 理论 对 汉语 语言 学 研究 的 特殊 重要 作 
用 。 由 于 HPSG “不 仅 具 有 较 广 泛 的 描写 语言 现象 的 能 
力 , 而 且 所 做 的 描写 也 比较 自然 " "1 而 汉语 中 丰富 
的 词汇 特征 在 很 大 程度 上 决定 了 句法 和 语义 结构 ,所 
以 HPSG 的 词汇 主义 特征 特别 适合 汉语 分 析 品 ]。 此 外 ， 
根据 欧洲 专家 咨询 小 组 (European Expert Advisory 
Group) 发 布 的 报告 , HPSG 是 计算 语言 学 领域 应 用 最 广 
泛 的 语法 理论 09。 

语义 方面 , 汉 构 使 用 最 小 递归 语义 (Minimal 
Recursion Semantics, MRS) 描 写 语义 04。MRS 采用 平 
型 (Flat) 语 义 形式 表达 系统 ,提供 量化 词 和 辖 域 算 子 
(Operator) 的 不 详 描写 (Underspecification)， 可 以 在 句 
法 没有 确切 描写 语义 约束 条 件 时 ,对 各 层次 的 语义 约 
束 条 件 进行 编码 ,同时 不 会 增加 错误 的 句法 歧义 。 
MRS 适用 于 基于 分 类 特征 结构 (Typed Feature 
Structure) 的 自动 剖析 及 生成 语句 ,已 经 在 基于 HPSG 
的 多 语种 计算 语法 开发 、 研 究 、 教 学 和 商用 实践 中 被 证 明 


Dhttp://moin.delph-in.net/LkbTop. 
Dhttp://www.delph-in.net/matrix/. 
Dhttp://moin.delp-in.net/MatrixMrsTestSuite. 


现代 图 书 情报 技术 


非常 灵活 高 效 ” ,同样 适用 于 汉语 可 计算 语法 开发 1。 

汉 构 的 开发 和 测试 平台 是 “语言 知识 建构 系统 
(Linguistic Knowledge Building system, LKB)”, LKB 
是 专 为 基于 约束 条 件 的 语言 学 形式 体系 (如 HPSG) 设 
计 的 词 库 和 语法 开发 平台 。 

2.2” 汉 构 的 开发 过 程 

汉 构 的 HPSG 属性 决定 了 它 没 有 任何 派生 或 转换 
性 质 的 操作 ， 只 包括 具体 的 句子 成 分 结构 、 一 组 数量 
有 限 的 语法 规则 、 普 遍 原则 和 富 含 语法 及 语义 信息 的 
词 库 。 汉 构 的 编写 过 程 包括 定制 语法 、 建 立 测试 套件 、 
建设 词 库 、 描 写 语法 规则 等 环节 外。 

汉 构 的 定制 语法 来 自 “ 语 法 母体 (Grammar 
Matrix)”。 该 语法 项 目的 目的 是 建立 一 个 不 同 语法 共 
享 的 内 核 ,主要 包括 基本 特征 结构 、 技 术 手 段 、 匹 配 
语义 描写 的 类 别 、 基 本 规则 与 结构 类 别 等 信息 外 。 开 
发 者 可 以 通过 参数 化 设置 , 自动 生成 针对 目标 语言 的 
语法 现象 的 形式 化 描写 , 作为 初始 语法 。 从 2001 年 起 ， 
该 项 目 组 根据 普遍 语法 特征 研究 ,致力 于 建立 跨 语 言 
的 可 计算 语法 的 基础 , 迄今 共 开 发 了 20 多 种 基于 语法 
母体 的 可 计算 语法 。 

汉 构 面向 和 使 用 的 是 MRS 测试 套件 ”。 该 测试 套 
件 有 12 种 语言 的 平行 语 料 , 覆盖 丰富 日 具 代 表 性 的 语 
言 现象 , 已 用 于 多 种 计算 语法 的 开发 。 

但 是 , 初始 语法 远 未 达到 令 人 满意 的 精确 度 和 
覆盖 面 。 仅 以 MRS 测试 套件 为 例 , 在 构建 第 一 版 词 
库 后 , 初始 语法 只 能 自动 剖析 不 到 三 分 之 一 的 例句 。 
这 说 明 , 开发 者 还 需要 针对 汉语 特点 , 构建 更 精确 的 
词 库 和 语法 规则 系统 。 这 两 个 环节 相对 较为 复杂 和 关 
键 ， 只 能 由 开发 人 员 在 初始 语法 的 基础 上 , 通过 人 工 
继续 拓展 和 完善 ,与 正在 开发 的 其 他 汉语 可 计算 语法 
相 比 , 汉 构 的 特点 在 于 挑战 汉语 比较 特殊 的 语法 现 
象 ®"1, 笔者 结合 汉 构 开发 的 具体 实践 ,针对 汉语 词汇 
特点 和 特殊 的 语法 现象 和 结构 , 重点 讨论 如 何 通 过 
构建 汉语 词 库 和 语法 规则 系统 ， 提 高 计算 语法 的 精 
确 度 和 和 堆 盖 面 。 


3 构建 词 库 : 词 项 和 类 别 层 级 


汉 构 的 词 项 由 类 别 定义 、 书 写 形式 和 语义 信息 三 
部 分 构成 ， 以 “追赶 "为 例 : 
追赶 V:=v trans-verb-lex 多 ;; 类 别 定 义 
[ STEM < "追赶 " >， ;; 书写 形式 
SYNSEM.LKEYS.KEYREL.PRED 

;; 语义 信息 
词 项 和 语法 规则 的 形式 化 描写 包括 结构 类 别 定义 
和 特征 描写 两 部 分 , 由 符号 & 连 接 。 前 者 由 符号 := 引入 
更 高 层级 的 结构 定义 , 读 为 “属于 ”; 后 者 使 用 方 括号 [ ] 
内 的 特征 结构 描写 。 大 写字 母 表示 HPSG 术语 ， 如 
SYNSEM 表示 句法 语义 联合 体 , LKEYS 表示 词 项 的 语 
义 指针 ; KEYREL 表示 关键 关系 指针 ; PRED 表示 关系 
的 谓词 名 称 。 小 写字 母 表示 句法 概念 , 如 v_trans 表示 
及 物 动 词 , verb 表示 动词 , lex 表示 词 项 等 。 双 分 号 是 对 
形式 化 描写 的 文字 说 明 。 该 词 项 第 一 行规 定 “ 追 赶 ”属于 
及 物 动词 类 别 ( 即 v_ trans-verb-lex); 第 二 行 是 书写 信息 ; 


"zhuilgan3_V_rel" ]. 


是 , HPSG 是 表层 导向 的 语法 理论 ,其 描写 与 表层 语言 
结构 的 语序 严格 对 应 。 因 此 , 一 般 情况 下 , 汉语 的 
ARG-ST 序列 中 第 一 个 论 元 对 应 主语 , 第 二 个 对 应 宾语 。 
匹配 句法 和 语义 信息 ， 即 在 第 二 个 论 元 的 语义 指 
针 和 该 动词 所 在 的 二 元 谓词 结构 中 相应 论 元 角色 ( 即 
ARG2) 之 间 建 立 联系 。 此 外 , 因为 汉语 是 主语 脱落 型 
的 语言 ， 描 写 还 规定 第 一 个 论 元 可 以 为 空 。 
transitive-lex-item := basic-two-arg-no-hcons & 
[ARG-ST<[]， ;3; 第 一 个 论 元 可 为 空 
[ LOCAL.CONT.HOOK.INDEX ref-ind & #ind2.] >, 
;; 第 二 个 论 元 的 语义 指针 ; 
SYNSEM.LKEYS.KEYREL.ARG?2 #ind2 J 
; ; ARG2 和 语义 指针 共 指 


需要 进一步 规定 及 物 动 词 涉及 的 两 个 论 元 的 详细 
特征 。 在 下 面 的 transitive-verb-lex 词汇 类 别 定 义 中 ， 
ARG-ST 特征 的 两 个 序列 值 规定 它们 的 中 心 语 都 是 名 
词 。 该 定义 还 再 次 匹配 了 句法 和 语义 信息 ,明确 论 元 结 
构 中 的 第 一 个 成 分 (通常 是 主语 ) 的 语义 指针 指向 该 动 


第 三 行 是 语义 信息 。[ ] 内 特征 之 间 的 句号 “.” 表 示 特 征 结 
构 的 路 径 ， 自 左 至 右 层级 越 来 越 低 , 靠 左 的 特征 结构 包 
含 靠 右 的 结构 。 如 [KEYREL.PRED] 表 示 位 于 更 高 层级 
的 关键 关系 特征 (KEYREL) 包 含 谓词 名 称 特征 (PRED)。 

通过 相关 联 的 词汇 层级 、 曲 折 变 化 规则 、 语 法 规则 
和 语义 关系 , 词 项 逐 级 投射 到 合法 的 句法 和 语义 结构 中 ， 
逐渐 形成 完整 的 句法 结构 分 类 层级 。 例 如 ， 及 物 动词 
“追赶 “的 词汇 类 别 层 级 由 上 而 下 如 图 1 所 示 : 


basic-two-arg-no-hcons 


transitive-lex-item main-verb-lex 


transitive-verb-lex 
V_trans-Verb-lex 


追赶 
图 1 及 物 动词 “追赶 ”的 类 别 层 级 


层级 越 高 的 结构 描写 越 概括 ， 层 级 越 低 描写 越 具 
体 , 并 继承 所 有 母 节 点 的 特征 描写 。 在 下 面 的 描写 中 ， 
ARG-ST 表示 论 元 序列 ,LOCAL 表示 本 地 性 , CAT 表示 
范畴 , VAL 表示 配 价 , SPR 表示 先行 语 , COMPS 表示 补 
语 。 符 号 < > 表示 序列 , 例如 [ARG-ST <ARG1，ARG2， 
ARG3>] 表 示 论 元 序列 包含 三 个 论 元 。 需 要 特别 说 明 的 


词 所 在 的 二 元 谓词 结构 的 相应 论 元 角色 ( 即 ARG1)。 
transitive-verb-lex := main-verb-lex & transitive-lex-item & 
[SYNSEM [ LOCAL.CAT.VAL.COMPS < #comp >, 
LKEYS.KEYREL.ARG!I1 #index ], ....….. 本 
ARG-ST<[LOCAL[ CATHEAD noun, | 
; ; 第 一 个 论 元 的 中 心 语 是 名 词 。 
CONT.HOOK.INDEX #index j ], 
; ;ARG1 和 语义 指针 共 指 
#comp & 
[ LOCAL.CAT [ VAL [ SPR <>， 
COMPS <> |], 
HEAD noun ] ] > ]. 
;; 第 二 个 论 元 的 中 心 语 是 名 词 
V_trans-Verb-lex := transitive-verb-lex 
HPSG 是 高 度 词汇 化 的 语法 理论 , 词 库 中 的 词 项 
蕴含 丰富 的 句法 信息 。 与 英语 、 德 语 、 西 班 牙 语 等 许 
多 语言 相 比 , 汉语 缺少 形态 和 句法 标记 。 因 此 , 汉语 
NLP 可 借助 的 语法 手段 很 有 限 。 例 如 , 汉语 中 没有 一 
致 和 格 的 概念 , 曲折 变化 形式 也 很 少 , 时 体 通常 由 非 
常 有 限 的 词汇 手段 表示 ， 如 “了 ”、“ 着 ”、“ 过 ”和 时 间 状 
语 等 。 但 是 , 汉语 的 词汇 信息 非常 丰富 , 存在 很 多 兼 类 
词 ,， 且 影响 句法 和 语义 结构 。 因 此 , 词 库 构 建 和 词 项 定 
义 对 汉语 NLP 尤为 重要 。 在 汉语 词 库 构 建 中 , 词 项 的 
定义 往往 并 非 取 决 于 词 形 , 而 是 取决 于 具有 不 同名 法 
功能 的 义 项 。LKB 在 剖析 句子 时 ， 只 有 当 词 库 中 没有 
任何 对 应 字符 串 的 情况 下 才 会 给 出 词汇 项 缺失 提示 。 
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如 果 分 析 失 败 ， 只 有 通过 分 析 树 图 才能 找 出 与 词 项 定 
义 相 关 的 原因 ， 显 然 那样 做 会 更 耗 时 费力 。 建 立 词 库 
时 , 要 根据 所 描写 的 语法 现象 充分 考虑 特定 词 形 的 多 
重 句法 功能 ,完善 词 项 定义 ， 和 否则 会 引起 前 析 失 败 。 如 
例 1 中 的 “给 ”具有 多 种 句法 功能 : 
例 1: (a) 张 三 给 了 李 四 。( 二 元 及 物 动 词 ) 
(b) 张 三 给 李 四 书 。( 三 元 物 动词 ) 
(c) 张 三 给 李 四 打 了 。( 复 杂 谓 语 ) 
(d) 张 三 把 书 拿 给 李 四 。(“ 把 ”字句 ) 
(e) 张 三 给 李 四 拿 书 。( 介 词 ) 
这 些 句 法 功能 决定 了 需要 在 词 库 中 添加 哪些 词 
项 。 例 如 , “给 ”的 4 个 词 项 定义 如 下 所 示 : 
给 V:=V trans-verb-lex & ”;; 二 元 动词 ， 用 来 描写 (a) 类 型 的 句子 
[STEM < " 递 " >， 
SYNSEM.LKEYS.KEYREL.PRED " di4_v_ rel" ]. 
三 元 动词 ,用 来 描写 (b) 类 型 的 句子 


给 v1 := ditrans-verb-lex& ;; 
[STEM < "给 " >, 
SYNSEM.LKEYS.KEYREL.PRED " gei3 v rel"]. 
给 v2 :=vV_light-verb-lex 多 ;; 轻 动词 用 来 描写 (c) 类 型 的 句子 
[STEM < "给 " >， ; ; “给 ”相当 于 “被 ” 
SYNSEM.LKEYS.KEYREL.PRED " gei3 v lt rel" ]. 


给 p :=prep-no-mod-lex 扩 ”;; 介词 , 用 来 描写 (d-e) 类 型 的 句子 


[ STEM < "给 " >， 
SYNSEM.LKEYS.KEYREL.PRED " gei3 p rel" ]. 


由 于 汉 构 的 词 库 是 面向 MRS 测试 套件 而 建 , 仅 
提供 套件 中 出 现 的 词 形 所 对 应 的 词 项 ,因此 词 项 的 数 
量 并 不 大 , 但 由 于 每 个 词 项 的 句法 信息 丰富 ， 因 此 构 
成 的 词 项 类 别 比 较 丰 富 。 据 统计 , 汉 构 词 库 共有 192 个 
词 形 , 231 个 词 项 , 76 个 词 项 类 别 。 


4 构建 语法 规则 系统 


建 好 词 库 后 , 还 需要 定义 和 描写 各 种 语法 规则 并 
构建 类 别 层级 , 才能 把 词 项 组 合成 更 大 单位 的 合法 结 
构 。 汉 构 的 规则 系统 包括 词汇 规则 、 短 语 规则 、 句 法 
规则 和 原则 4 个 部 分 。 其 中 , 原则 本 质 上 也 是 规则 的 
一 种 , 包括 少数 约束 全 部 句法 结构 的 核心 规则 ; 词汇 
规则 主要 用 来 生成 各 种 曲折 变化 形式 ; 短语 规则 用 来 
生成 短语 结构 ; 句法 规则 用 来 生成 更 复杂 的 小 句 结 
构 。 汉 构 的 规则 系统 如 图 2 所 示 。 

以 句法 规则 为 例 , 为 构成 小 句 , 需要 一 些 基本 的 
句法 规则 , 例如 “主语 -中 心 语 ” 规 则 和 “中 心 语 - 补 语 ” 
规则 , 分 别 如 图 3 和 图 4 所 示 。 
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语法 规则 系统 
原则 规则 
词汇 规则 ”短语 规则 句法 规则 


图 2 汉 构 的 语法 规则 系统 


subj-head-phrase 


STEM list 

ARG bool 

SYNSEM phr-synsem 

ARGS cons 《ll4[sign],20[sign]> 
INFLECTED 
2 [mrs] 2 
HEAD-DTR [20| ees 


NON-HERAD-DTR [14 


图 3 “主语 -中 心 语 ” 规 则 的 特征 结构 


[head-comp-phrase 


STEM list 
KEY-ARG bool 
SYNSEM phr-synsem 
ARGS 


INFLECTED + 
C-CONT mrs ， 
HEAD-DTR [Be ee 
NON-HEAD-DTR [22 


cons < Il[sign],23I[sign]> 


图 4 “中 心 语 - 补 语 ” 规 则 的 特征 结构 


在 图 3 中 , 第 [1 入 项 是 主语 ， 即 非 中 心 语 成 分 
(NON-HEAD-DTR); 第 [20] 项 是 中 心 语 节点 ,而 且 , 在 
表层 结构 ARGS 中 , [14] 位 于 [20] 之 前 。 同 理 , 图 4 中 
的 “中 心 语 - 补 语 ?规则 规定 中 心 语 节点 [18] 位 于 非 中 心 
语 节点 ， 即 其 补 语 [22] 之 前 。 

再 描写 中 心 语 、 主 语 和 补 语 的 特征 。 例 如 ,规定 
汉语 的 中 心 语 包 括 动词 (如 “追赶 "、“ 认 为 "和 “ 叫 ”)、 形 
容 词 、 名 词 (如 “ 张 三 "、“ 李 四 ”) 和 介词 ; 主语 是 名 词性 
成 分 ; 补 语 包括 名 词性 成 分 或 小 句 (如 “ 王 四 在 叫 ”)。 这 
两 条 基本 的 句法 规则 可 以 构成 SVO( 主 语 + 动 词 + 宾 语 ) 
结构 (如 例 2 和 图 5) 和 SVC( 主 语 + 动 词 + 补 语 ) 结 构 ( 如 
例 3 和 图 6)。 

例 2: 张 三 追 赶 李 四 。 


8.@@ “ 纺 三 追赶 丰 四 


图 5 SVO 结构 “ 张 三 追 赶 李 四 ”的 树 形 图 


例 3: 张 三 认 为 李 四 在 叫 。 


人 OB 张 = 认为 李 四 在 册 '| 


图 6 SVC 结构 “ 张 三 认 为 李 四 在 叫 ” 的 树 形 图 


将 每 条 句法 规则 直接 和 子 节点 的 关系 序列 联系 在 
一 起 , 构成 这 些 句 子 的 MRS 语义 表达 。 该 过 程 从 最 底 
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层 由 词 项 实现 的 关系 开始 , 通常 每 个 词 项 表示 一 种 关 
系 。 句 法 规则 也 可 能 直接 把 语义 内 容 整合 在 一 起 , 但 
这 里 讨论 的 基本 句法 规则 只 是 将 子 节点 上 的 词 和 短语 
的 语义 内 容 集合 起 来 。 语 义 组 合 方面 的 确切 约束 条 件 
通过 丰富 的 词汇 类 别 定义 实现 ， 如 之 前 讨论 过 的 及 物 
动词 类 别 定 义 和 层 级 。 

但 是 , 仅 依靠 基本 句法 规则 远 远 不 够 ,为 了 能 自 
动 剖析 汉语 特殊 结构 ,需要 在 定制 语法 的 基础 上 增加 
有 针对 性 的 规则 。 例 如 , 定制 语法 无 法 分 析 例 4， 其 剖 
析 流 程 如 图 7 所 示 。 

例 4: 追赶 猫 很 无 聊 。 


追赶 一 0-1 [9] Y_TRANS-YERB-LEX 


0-1 
0-1 
猫 -一 1-2[14 COUNT- ee 

] 


很 一 2-3[18] DEG-INT-ADY-YP-PREW1-2 
2-4 
无 邯 -3-4 [1 eA 4 


15] BARE-NP. 


[10] BASIC-HEAD-OPT-COMP~0.1 [11] EXTRACTED-SUBJ 
[12] EXTRACTED-COMP 
[13] EXTRACTED-SUBJ 
[ 
[ 
[ 


21] HEAD-SPEC-HS 
20] EXTRACTED-SUBJ 


1-4 [23] SUBJ-HEAD 


oa [17] EXTRACTED-SUBJ 


2-4 [22] EXTRACTED-SUBJ 


图 7 “追赶 猫 很 无 聊 ” 的 自动 剖析 流程 图 


通过 流程 图 可 以 看 出 词 项 类 别 、 应 用 的 短语 和 句 
法 规则 、 句 法 组 合 步骤 等 详细 信息 。 流 程 图 的 每 个 节 
点 包括 三 部 分 信息 。 以 图 7 中 箭头 所 指 的 被 虚线 圈 出 
的 部 分 为 例 , 第 一 部 分 用 两 个 阿拉 伯 数 字 标 明 的 区 间 
( 即 0-2), 表示 该 节点 覆盖 的 词 项 范围 。 词 项 标注 按照 
0-1( 第 一 个 词 项 )、1-2( 第 二 个 词 项 )、2-3( 第 三 个 词 项 ) 
的 顺序 依次 进行 。0-2 表示 此 节点 覆盖 了 前 两 个 词 
项 。 第 二 部 分 是 方 括号 中 的 数字 ( 即 [16])， 表 示 句 法 组 
合 的 步骤。 最 后 一 部 分 大 写字 母 是 HPSG 的 术语 组 合 ， 
表示 在 该 步骤 形成 的 句法 结构 。“0-2 [16] HEAD- 


COMP” 表 示 在 第 16 步 组合 形 成 “中 心 语 - 补 语 ” 结 构 ， 
涵盖 了 (0-1) “追赶 "? 和 (1-2)“ 猫 ”两 个 词 项 。 

图 7 显示 虽然 通过 “中 心 语 - 补 语 ” 规 则 形成 了 VP 
“追赶 猫 ” 但 没有 句法 规则 允许 它 做 主语 ,导致 其 无 
法 进一步 与 “很 无 聊 ” 组 合 。 汉 语 中 VP 做 小 句 主语 的 
情况 很 常见 。 在 英语 这 种 曲折 变化 形式 较 丰 富 的 语 
言 中 , 非 谓语 动词 形式 ， 如 动 名 词 ， 可 以 帮助 甄别 
含有 动词 形式 的 主语 ， 如 例 5， 其 自动 训 析 结果 如 图 
8 所 示 。 

例 5: Chasing the cat is boring. 


[subjh_mc_rule 
SYNSEM [Phr_synsem] 
KEY-ARG bool 


HD-—DTR 165| 
[NH-DTR ai 


ORTH orthog < “top* > 申 “top” 

ARGS <[71[bare_vger_rule],[165 [hcomp_rule]> 

INFLECTD + 

GENRE 140| 

DIALECT 141 boring. 
IDIOM L142| V 

C-CONT [mrs] chasing PET N 

RNAME sbhd 


chasing the cat is boring… Pa 


cat 


图 8 ” ”Chasing the cat is boring 的 特征 结构 和 树 形 图 


其 中 , chasing 由 “动词 原形 chase + -ing 标记 ”构成 ， 
可 以 通过 曲折 变化 短语 规则 把 带 有 “-ing” 标 记 的 动词 
短语 转换 为 名 词性 成 分 。 但 汉语 中 缺少 动 名 词曲 折 变 
化 形式 ,导致 定制 语法 无 法 分 析 例 4。 为 解决 这 种 汉 


语 特 殊 现象 , 需要 增加 允许 VP 做 主语 的 规则 。 在 汉 
构 中 , 定义 汉语 的 主语 为 包含 可 选择 论 元 的 olist 序列 ， 
即 “追赶 ”的 主语 可 缺 省 。 因 此 , VP “追赶 猫 ” 就 可 成 为 
饱和 的 (Saturated) 小 句 成 分 结构 ,这 意味 着 它 可 以 担 
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当 后 面 的 谓词 成 分 “很 无 聊 ” 的 主语 ， 从 而 能 够 根据 “ 主 
语 -中 心 语 (SUBJHEAD)” 规 则 进行 下 一 步 组 合 。 相 关 
具体 描写 如 下 所 示 。 汉 构 最 终 成 功 剖 析 例 4 的 结果 如 
图 9 所 示 。 


olist := list. 
subj-head-phrase := decl-head-subj-phrase & head-final & 
[HEAD-DTR.SYNSEM.LOCAL.CAT [ VAL [ SPR olist, 
COMPS <> ], 
POSTHEAD + ] ]. 


[subj-head-phrase 
STEM list 
KEY-ARG bool 
SYNSEM [phrsynsem 
ead-comp-phrase 
STEM list 
KEY-ARG bool 
SYNSEM [34[phr-synsem] 
ARGS cons | [3B3||aRGs cons [52[v_trans-verb-lex |,I59|[bare-np-phrase |]> ,l67\[head-spec-h-sem-phrase]| 
INFLECTED + 
seo] 
HEAD-DTR [52 
NON-HEAD-DTR [59 S 
INFLECTED 十 WE 
C-CONT [mrs] ADJ-T 
HEAD-DTR 66 了 7 
NON-HERAD-DTR 全 V NP ADV ADJ-T 
- 追赶 很 ”无聊 
田 


图 9 


汉 构 编制 了 许多 针对 汉语 特殊 语法 现象 和 结构 的 
规则 ,因此 有 效 覆 盖 了 较为 广泛 的 汉语 自然 语 料 。 例 
如 ,成 功 处 理 例 4 应 用 了 一 条 特殊 的 “ 表 语 形容 词 转 
换 ” 词 汇 规则 , 规定 汉语 形容 词 不 需要 系 动词 (如 例 5 
中 的 is) 就 可 直接 做 谓词 。 此 外 , 通过 定义 汉语 主语 的 
序列 类 别 ,可 以 在 保持 句法 规则 简洁 的 同时 避免 词 库 
言 息 元 余 ， 从 而 保持 整个 系统 的 俭 省 性 。 例 如 , 不 必 
把 例 4 中 的 “追赶 ?分别 列 为 名 词 和 动词 两 个 词 项 。 相 
反 , 如 果 在 词 库 中 将 所 有 兼 类 词 单列 为 词 项 , 由 于 汉 


语 兼 类 词 非常 普遍 ， 词 库 规 模 会 成 倍 扩大 。 
S 结 语 


汉 构 的 开发 至 今 已 持续 约 7 年 ， 其 中 集中 开发 约 
两 年 , 而 且 还 在 不 断 更 新 。 汉 构 的 成 功 开 发 , 证 明了 
HPSG 框架 内 的 汉语 语言 学 理论 分 析 和 计算 实现 不 仅 
可 行 , 而 且 高 效 。 它 在 形式 语法 理论 和 计算 语言 学 之 
间 搭 建 起 一 个 有 效 的 跨 学 科 平 台 。 汉 构 已 经 成 为 一 些 
最 新 开发 的 计算 语法 的 基础 ， 例 如 新 加 坡 国立 大 学 系 
统 科学 研究 院 组 织 开 发 的 ZHONG[|] 语 法 系统 24221。 目 
前 , 汉 构 的 语法 体系 共有 大 约 5 200 行 语法 规则 描写 ， 
涵盖 了 相当 广泛 的 汉语 现象 , 包括 时 体 貌 、 属 格 形 式 、 
介词 性 修饰 成 分 、 结 果 状 语 结构 、 并 列 结 构 、 内 出 小 
句 、 名 物化 、“ 被 ”字句 、“ 把 ”字句 和 兼 语 式 中 等 。 根 
据 语 法 性 能 测试 工具 [incr tsdb0O](TSDB) 的 批 处 理 结 
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“追赶 猫 很 无 聊 ” 的 特征 结构 和 树 形 图 


果 , 汉 构 已 经 完全 覆盖 了 汉语 MRS 测试 套件 由。 

此 外 , 汉 构 使 用 MRS 为 每 个 句法 自动 剖析 的 结 
果 匹 配 了 组 合 而 成 的 语义 分 析 。 因 此 , 它 具 有 完全 可 
道 的 特点 ， 即 除了 用 于 传统 的 句法 自动 剖析 , 还 可 根 
据 MRS 输入 自动 生成 合法 的 汉语 句子 。 

下 一 步 , 笔者 计划 加 强 针 对 汉语 特殊 结构 的 语言 
学 本 体 研究 , 并 将 研究 结果 计算 实现 , 拓展 汉 构 的 覆 
盖 面 , 提高 处 理 效率 。 具 体 地 , 需要 建立 一 个 包含 更 丰 
富 语 言 现象 的 测试 套件 , 扩建 词 库 ， 并 通过 修改 完善 
各 级 规则 ,以 及 检查 使 用 语法 自动 生成 的 不 合理 语句 ， 
减少 错误 的 剖析 结果 。 


(致谢 : 感谢 匿名 外 审 专家 以 及 编辑 部 的 修改 意见 ,) 
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Building Online System for Chinese Lexicon and Grammar 


Yang Chunlei 
(College of English Studies, Shanghai International Studies University, Shanghai 201600, China) 


Abstract: [Objective] This paper explores the theoretical foundation and practical experience of buidling a 
computational Chinese grammar system. [Methods] This study discussed the development process of the Mandarin 
Grammar Online (ManGO), an Head-driven Phrase Structure Grammar (HPSG) system with Minimal Recursion 
Semantics. It built the lexicon and hierarchy rules for the idiosyncratic structures of the Chinese grammar. [Results] 
The successful development of the ManGO system showed that the HPSG was an ideal theoretical framework for the 
Chinese computational grammar applications. [Limitations] ManGO was still underdeveloped, and it was not able to 
examine this system’s coverage with large-scale natural language data. [Conclusions] ManGO connects the theories of 
formal and computational linguistics, therefore, it becomes the foundation to develop large scale resource grammar. 


Keywords: HPSG Mandarin Grammar Online (ManGO) Grammar engineering Natural Language Processing 


ProQuest 电子 书 中 心平 台 提 供 Access-to-Own 电子 书 采购 模型 


ProQuest 备 受 关注 的 “Access-to-Own” 电 子 书 采购 模型 现 已 推出 , 图 书馆 能 够 构建 基于 其 用 户 真 实 需求 的 高 质量 
馆藏 。 

“Access-to-Own" 电 子 书 采 购 模型 已 成 为 ProQuest 电子 书 中 心平 台中 可 供 灵 活 选择 的 电子 书 采购 方案 之 一 。 图 书馆 可 以 
从 各 种 模型 中 选择 一 种 来 打造 最 适合 他 们 需求 和 最 大 化 利用 其 预算 的 电子 书馆 藏 。 

“十 年 前 , 我 们 的 图 书馆 率先 采用 ProQuest 的 需求 驱动 的 电子 书 采购 模型 (Demand-Driven Acquisition，DDA)， 使 得 我 们 
在 建设 馆藏 的 时 候 能 考虑 到 用 户 的 实际 需求 ,”Swinburne University of Technology 图 书馆 信息 资源 中 心 副 主 任 Tony Davies 说 ， 
“今天 , 我 们 期 待 通过 'Access-to-Ownm' 电 子 书 采 购 模 型 进一步 改善 我 们 的 采购 战略 ， 这 为 我 们 提供 了 一 个 基于 已 有 的 情况 和 
用 户 的 需求 进一步 发 展 我 们 的 电子 书馆 藏 的 新 机 遇 。?” 

有 了 "Access-to-Own" 电 子 书 采 购 模型 ， 通 过 需求 驱动 的 电子 书 采 购 模型 所 激发 的 预算 文 出 将 用 于 条 目 所 有 权 费 用 。 这 个 
模型 对 于 希望 使 用 基于 使 用 数据 的 采购 模型 来 建设 馆藏， 以 及 在 访问 范围 和 所 有 权 上 平衡 支出 的 研究 机 构 和 学 术 图 书馆 来 
说 , 是 很 理想 的 选择 。 这 个 模型 也 可 以 和 单 本 图 书 采购 、 订 阅 和 DDA 方案 一 起 联合 使 用 。 

ProQuest 的 市 场 调查 显示 , 80% 的 学 术 图 书馆 电子 书 预算 是 保持 稳定 的 状态 甚至 略 有 增长 。“Access-to-Own” 电 子 书 采购 
模型 可 以 和 DDA- 短 期 贷款 模型 或 是 DDA- 购 买 模型 一 起 使 用 , 进一步 扩大 基于 证 据 的 采购 的 适用 范围 。 

(编译 自 : http://www.proquest.com/about/news/2016/Access-to-Own-Now-Available-on-ProQuest-Ebook-Central-Platform.html) 
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